4 research outputs found
Generalizing Gaze Estimation with Weak-Supervision from Synthetic Views
Developing gaze estimation models that generalize well to unseen domains and
in-the-wild conditions remains a challenge with no known best solution. This is
mostly due to the difficulty of acquiring ground truth data that cover the
distribution of possible faces, head poses and environmental conditions that
exist in the real world. In this work, we propose to train general gaze
estimation models based on 3D geometry-aware gaze pseudo-annotations which we
extract from arbitrary unlabelled face images, which are abundantly available
in the internet. Additionally, we leverage the observation that head, body and
hand pose estimation benefit from revising them as dense 3D coordinate
prediction, and similarly express gaze estimation as regression of dense 3D eye
meshes. We overcome the absence of compatible ground truth by fitting rigid 3D
eyeballs on existing gaze datasets and design a multi-view supervision
framework to balance the effect of pseudo-labels during training. We test our
method in the task of gaze generalization, in which we demonstrate improvement
of up to compared to state-of-the-art when no ground truth data are
available, and up to when they are. The project material will become
available for research purposes.Comment: 13 pages, 12 figure
Modellering av mÀnskliga poser och former i 3D
The focus of this thesis is the task of 3D pose estimation while taking into consideration the shape of a person in a single image. For rendering the human pose and the body shape we use a newly proposed statistical model, the SMPL [1]. We train a neural network to estimate the shape and the pose of a person in an image. Afterwards, we use an optimization procedure to further enhance the output. the network is trained by incorporating the optimized and the predicted parameters into the loss. This approach is based on SPIN [2]. We extend this method by using a stronger optimization that is based on several views and the error is summed over all of them. The main objective of this thesis is to utilize information from multiple views. The motivation for our method is to explore whether this optimization can provide better supervision to the network. In order to verify the effectiveness of our method, we conduct several experiments and we show appealing visual results. Lastly, to make the network generalize better we train simultaneously on seven datasets and achieve comparable to even better accuracy than similar methods from related work.Fokus för denna avhandling Àr uppgiften att skatta en mÀnsklig 3D-pose ochsamtidigt ta hÀnsyn till personens form i en bild. För att rendera mÀnskligaposer och kroppsformer anvÀnder vi en nyligen föreslagen statistisk modell,SMPL [1]. Vi trÀnar ett neuralt nÀtverk för att skatta en persons pose och formi en bild. DÀrefter anvÀnder vi en optimerings-procedur för att ytterligare förbÀttradessa skattningar. NÀtverket trÀnas genom att integrera de förbÀttradeskattningarna i en mÄlfunktion tillsammans med de primitiva skattningarna.Denna strategi Àr baserad pÄ SPIN [2]. Vi utökar denna metod genom att anvÀndaen optimerings-procedur som bygger pÄ att inkorporera flera vyer ochsummera felet över alla dessa. Motivationen för vÄr metod Àr att utforska omden kan förbÀttra guidningen av nÀtverkets trÀning. För att fÄ vÄrt nÀtverk attgeneralisera bÀttre sÄ trÀnar vi pÄ sju dataset samtidigt och uppnÄr jÀmförbarnoggrannhet med liknande metoder frÄn relaterad forskning. Vi utför Àven fleraexperiment för att verifiera vÄr metods effektivitet
Modellering av mÀnskliga poser och former i 3D
The focus of this thesis is the task of 3D pose estimation while taking into consideration the shape of a person in a single image. For rendering the human pose and the body shape we use a newly proposed statistical model, the SMPL [1]. We train a neural network to estimate the shape and the pose of a person in an image. Afterwards, we use an optimization procedure to further enhance the output. the network is trained by incorporating the optimized and the predicted parameters into the loss. This approach is based on SPIN [2]. We extend this method by using a stronger optimization that is based on several views and the error is summed over all of them. The main objective of this thesis is to utilize information from multiple views. The motivation for our method is to explore whether this optimization can provide better supervision to the network. In order to verify the effectiveness of our method, we conduct several experiments and we show appealing visual results. Lastly, to make the network generalize better we train simultaneously on seven datasets and achieve comparable to even better accuracy than similar methods from related work.Fokus för denna avhandling Àr uppgiften att skatta en mÀnsklig 3D-pose ochsamtidigt ta hÀnsyn till personens form i en bild. För att rendera mÀnskligaposer och kroppsformer anvÀnder vi en nyligen föreslagen statistisk modell,SMPL [1]. Vi trÀnar ett neuralt nÀtverk för att skatta en persons pose och formi en bild. DÀrefter anvÀnder vi en optimerings-procedur för att ytterligare förbÀttradessa skattningar. NÀtverket trÀnas genom att integrera de förbÀttradeskattningarna i en mÄlfunktion tillsammans med de primitiva skattningarna.Denna strategi Àr baserad pÄ SPIN [2]. Vi utökar denna metod genom att anvÀndaen optimerings-procedur som bygger pÄ att inkorporera flera vyer ochsummera felet över alla dessa. Motivationen för vÄr metod Àr att utforska omden kan förbÀttra guidningen av nÀtverkets trÀning. För att fÄ vÄrt nÀtverk attgeneralisera bÀttre sÄ trÀnar vi pÄ sju dataset samtidigt och uppnÄr jÀmförbarnoggrannhet med liknande metoder frÄn relaterad forskning. Vi utför Àven fleraexperiment för att verifiera vÄr metods effektivitet
Modellering av mÀnskliga poser och former i 3D
The focus of this thesis is the task of 3D pose estimation while taking into consideration the shape of a person in a single image. For rendering the human pose and the body shape we use a newly proposed statistical model, the SMPL [1]. We train a neural network to estimate the shape and the pose of a person in an image. Afterwards, we use an optimization procedure to further enhance the output. the network is trained by incorporating the optimized and the predicted parameters into the loss. This approach is based on SPIN [2]. We extend this method by using a stronger optimization that is based on several views and the error is summed over all of them. The main objective of this thesis is to utilize information from multiple views. The motivation for our method is to explore whether this optimization can provide better supervision to the network. In order to verify the effectiveness of our method, we conduct several experiments and we show appealing visual results. Lastly, to make the network generalize better we train simultaneously on seven datasets and achieve comparable to even better accuracy than similar methods from related work.Fokus för denna avhandling Àr uppgiften att skatta en mÀnsklig 3D-pose ochsamtidigt ta hÀnsyn till personens form i en bild. För att rendera mÀnskligaposer och kroppsformer anvÀnder vi en nyligen föreslagen statistisk modell,SMPL [1]. Vi trÀnar ett neuralt nÀtverk för att skatta en persons pose och formi en bild. DÀrefter anvÀnder vi en optimerings-procedur för att ytterligare förbÀttradessa skattningar. NÀtverket trÀnas genom att integrera de förbÀttradeskattningarna i en mÄlfunktion tillsammans med de primitiva skattningarna.Denna strategi Àr baserad pÄ SPIN [2]. Vi utökar denna metod genom att anvÀndaen optimerings-procedur som bygger pÄ att inkorporera flera vyer ochsummera felet över alla dessa. Motivationen för vÄr metod Àr att utforska omden kan förbÀttra guidningen av nÀtverkets trÀning. För att fÄ vÄrt nÀtverk attgeneralisera bÀttre sÄ trÀnar vi pÄ sju dataset samtidigt och uppnÄr jÀmförbarnoggrannhet med liknande metoder frÄn relaterad forskning. Vi utför Àven fleraexperiment för att verifiera vÄr metods effektivitet